【扎克伯格面向AGI开源】Llama 3重磅发布:全球最强开源大模型,GPT4级别开源权重
前几天某度CEO刚刚说完开源模型会越来越落后,今天扎克伯格就放出开源王炸:Meta Llama 3横空出世,这是人工智能发展一个历史性时刻
Llama 3系列首发两款模型:80亿参数(Llama 3 8B)和700亿参数(Llama 3 70B)版本,更为强大的版本4000亿参数(Llama 3 400B)还在训练,未来几个月将会发布
Llama 3不仅在性能上超越了Llama 2,更在推理、代码生成和指令遵循等方面实现了突破,成为了目前最强大的开源大语言模型
Llama 3的优势
Llama 3的主要优势包括:
性能领先: Llama 3在多个行业基准测试中展现了最先进的性能,其8B和70B参数模型在同等规模模型中处于领先地位
推理能力提升: Llama 3在推理、代码生成和指令遵循等方面取得了显著进步,使其更具实用性和可控性
错误拒绝率降低: Llama 3的错误拒绝率大幅降低,使其成为迄今为止最“乐于助人”的模型
开放性: Llama 3秉承开源精神,将模型代码和资源向社区开放,推动人工智能领域的创新和发展。
Llama 3的技术细节
Llama 3的技术细节包括:
模型架构: Llama 3采用标准的解码器Transformer架构,并引入了分组查询注意力机制(GQA)和更大的词汇表(128K tokens),提升了模型的效率和性能
训练数据: Llama 3使用了超过15万亿个token的训练数据,其中包含高质量的非英语数据,覆盖了30多种语言
数据过滤: Llama 3采用了一系列数据过滤机制,包括启发式过滤、NSFW过滤、语义重复数据删除和文本分类器,确保训练数据的质量
规模化训练: Llama 3使用了先进的训练技术,包括数据并行、模型并行和流水线并行,并在定制的24K GPU集群上进行训练,实现了高效的模型训练
指令微调: Llama 3采用了监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)等技术进行指令微调,提升了模型的性能和安全性。
Llama 3的发布,业内人士也给予了高度评价
Llama 3的发布引发了人工智能社区的热烈讨论,专家和开发者纷纷表达了对Llama 3的期待和赞誉:
1)最大的模型超过400B参数,且仍在训练中
2)选择了8B而不是7B模型,主要原因是升级了tokenizer,词汇表从32K扩展到128K,提高了模型的效率和性能
3)预训练上下文窗口设置为8K tokens,未来将发布更长上下文窗口的模型
4)除了自动评估,还进行了精心设计的人工评估,以更全面地评估模型的性能。
结语
Llama 3的发布无疑是Meta在大型语言模型领域取得的又一重大突破。凭借海量的高质量训练数据、先进的模型架构、创新的微调技术以及对安全性的重视,Llama 3展现出了卓越的性能,并有望在未来进一步提升,挑战行业巨头。Meta公司坚持开源开放的理念,也必将推动整个AI生态系统的快速发展
Meta推出了新的网站meta.ai已经集成了Llama 3,现在就可以开始使用了
Llama 3详细信息:
https://ai.meta.com/blog/meta-llama-3/?utm_source=twitter&utm_medium=organic_social&utm_content=video&utm_campaign=llama3
https://llama.meta.com/llama3/
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~